[2024年12月4日号]個人的に気になったModern Data Stack情報まとめ

[2024年12月4日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.12.04

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

AWS re:Invent 2024が2024年12月2日~6日で開催中

AWSの年次イベントであるAWS re:Invent 2024が、2024年12月2日~6日で開催中です。

https://reinvent.awsevents.com/

発表された新機能の中では、SageMaker Lakehouse、S3 Tablesあたりが特に気になっております。

https://aws.amazon.com/jp/about-aws/whats-new/2024/12/aws-announces-amazon-sagemaker-lakehouse/

https://aws.amazon.com/jp/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/

弊社からも多くの社員が現地参戦しており多くのブログが投稿されています、こちらもぜひ併せてご覧ください。

https://dev.classmethod.jp/referencecat/aws-reinvent-2024/

Open Source Data Summit 2024が2024年10月に開催

少し前なのですが、2024年10月にOpen Source Data Summit 2024が開催されました。

私も初めて知ったのですが、カンファレンス名の通りOSSの各製品やアーキテクチャに関してのセッションが多いようです。下記のサイトから各セッションの録画を見ることも出来ます。

https://opensourcedatasummit.com/

こちらのカンファレンスについて、Onehouse社もレポートを出していました。

https://www.onehouse.ai/blog/open-source-data-summit-2024-draws-data-engineers-and-data-architects

高速と噂される SQL リンターツール「sqruff」を実際に試してみた

弊社エンジニアによる記事ですが、最近日本のデータエンジニア間でも少し話題となったsqruffを試してみた記事を投稿しています。

sqlfluffとの動作速度比較なども行っていますので、参考になると思います!ぜひご覧ください。

https://dev.classmethod.jp/articles/sqruff/

Data Extract/Load

全般

dltHub社がまとめた各ツールの比較記事

dltHub社より、データロードに使用される各SaaS/OSSを比較した記事が出ていました。

dltHub社が作成している記事というところに注意が必要ですが、各ツールの違いをざっと知るには参考になると思います。

https://dlthub.com/blog/self-hosted-tools-benchmarking

https://dlthub.com/blog/sql-benchmark-saas

Data Warehouse/Data Lakehouse

Snowflake

Snowflake社がAnthropic社と戦略的パートナーシップを締結

Snowflake社がAnthropic社と戦略的パートナーシップを締結しました。

これにより、近い内にSnowflake内でAnthropic社が提供するLLMであるClaudeを使えるようになるはずです!

https://www.snowflake.com/news/snowflake-and-anthropic-team-up-to-bring-claude-models-directly-to-the-ai-data-cloud/

SnowflakeのMFAの強制に関する最新情報

Snowflake社の公式ブログより、MFAの強制に関する最新情報が出ていました。

https://www.snowflake.com/en/blog/blocking-single-factor-password-authentification/

今後、下記のような流れでパスワード認証を行うユーザーに対してMFAを強制していくとのことです。

  • 2025年4月:MFAを強制するauthentication policyが適用される(custom authentication policyで回避可能)
  • 2025年8月:custom authentication policyでの回避が不可になり、TYPE=PERSONでパスワード認証を行うユーザーはMFAを強制される
  • 2025年11月:TYPE=LEGACY_SERVICEのユーザーはTYPE=SERVICEに移行予定で、すべてのユーザーがパスワード認証の場合はMFAを強制される

terraform-provider-snowflakeのv0.99.0がリリースされ、v1.0.0もまもなくリリース予定

11月16日にterraform-provider-snowflakeのv0.99.0がリリースされました。

https://github.com/Snowflake-Labs/terraform-provider-snowflake/releases/tag/v0.99.0

また、ロードマップ情報を見ると、まもなくv1をリリース予定とも記載がされています。(これで破壊的変更がなくなるとよのですが…)

https://github.com/Snowflake-Labs/terraform-provider-snowflake/blob/main/ROADMAP.md

このアップデートに関連して、terraform-provider-snowflakeのバージョンアップ対応を安全に行うための手順をまとめた記事が出ていました。(ありがとうございます!!)
こちらの記事も今後のバージョンアップの際にはぜひ参考にしてみてください。

https://zenn.dev/fap/articles/5272be5b55dc11

EXECUTE IMMEDIATE、Jinja Templates、Git Integrationを用いたSnowflake内部での動的なSQL生成

Mediumより、EXECUTE IMMEDIATE、Jinja Templates、Git Integrationを用いたSnowflake内部での動的なSQL生成方法についてまとめた記事が出ていました。

この記事ではdevとprodを環境変数ベースで切り替える方法についてまとめられています。

https://medium.com/snowflake/dynamic-sql-in-snowflake-with-execute-immediate-jinja-templates-and-git-integration-20bda86f8f42

Data Transform

dbt

Warner Brothers Discovery社がdbt Coreからdbt Cloudに移行した理由

dbt Labs社の公式ブログより、Warner Brothers Discovery社がdbt Coreからdbt Cloudに移行した理由についてまとめた記事が出ていました。(Coalesce 2024のセッションのまとめ記事です。)

https://www.getdbt.com/blog/warner-brothers-core-to-cloud

dbt Coreでの課題として、以下を挙げていました。

  • ジョブのパフォーマンスが急に悪くなることがありこれが予測不能で、コストが増加することがあった
  • インフラストラクチャの管理とスケーリングの実装が困難だった
  • データメッシュアーキテクチャのサポートがなかったため、エンジニアリングチームに依存せざるを得なかった

dbt Cloudに移行したことで得られたメリットとして、以下を挙げていました。

  • dbt Meshの採用により、大規模なモデル群をより小さな粒度に分割してまとめ、プロジェクト間の依存関係を管理できるようになった
  • エンジニアリングチームのサポートなしで、各チームが自立してプロジェクトを管理できるようになった
  • dbt Cloudのスケジューラー、Encironment、を使用して、開発者とアナリストのオンボーディングプロセスを改善できた
  • dbt CloudのWebhookを使用してSlack通知を有効化し、エンジニアリングチームが問題に迅速に対応できるようになった

SDF

Rustで書かれた高速なSQL LinterをSDFの1機能としてリリース ※プレビュー

まだプレビューの機能ですが、Rustで書かれた高速なSQL LinterをSDFの1機能としてリリースしました。

https://blog.sdf.com/p/1000x-faster-sql-linting

https://docs.sdf.com/linter/overview

Data Catalog

CastorDoc

NotionとConfluenceのコンテンツをCastorDocに同期できる機能をリリース

CastorDocの新機能として、NotionとConfluenceのコンテンツをCastorDocに同期できる機能をリリースしました。

データカタログに関連するドキュメントも通常業務で利用しているNotionやConfluenceで書きたいニーズはあると思うので、これは嬉しいですね!

https://docs.castordoc.com/changelog#sync-your-notion-and-confluence-content-with-castordoc

https://docs.castordoc.com/integrations/knowledge-base/confluence

https://docs.castordoc.com/integrations/knowledge-base/notion

Data Quality・Data Observability

Elementary

Data Healthに関する考え方とdbt×ElementaryでのScoreの測定・活用方法

Elementary社のブログより、Data Health(データ健全性)とそのScoreをdbt×Elementaryでどのように測定して活用するかをまとめた記事が出ていました。

https://www.elementary-data.com/post/measuring-data-health-a-guide

Data Orchestration

Orchestra

Orchestra内で直接Pythonの処理を実行できるように

Orchestraの新機能として、Orchestraのタスクで直接Pythonの処理を実行できるようになりました。

データ自体を処理するような重めの処理は厳しそうですが、外部ツールをPython経由で呼び出す際など、柔軟にタスクを組みたい時に活用できそうです。

https://www.getorchestra.io/blog/announcing-orchestra-python-support-run-any-code-in-a-data-pipeline

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.